ディープラーニング(AI)を用いた多文字のくずし字OCRサービスを提供します。
なお、スマホアプリについては、みを(miwo) - AIくずし字認識アプリをご利用下さい。
KuroNetくずし字認識サービス
KuroNetくずし字認識サービスは、IIIF (International Image Interoperability Framework)に準拠した画像を対象に、RURIを利用した多文字くずし字OCR機能を提供します。無料サービスですが、ログインが必要です。具体的な利用方法につきましては、リンク先をご覧下さい。
KuroNetくずし字認識ビューア
KuroNetくずし字認識ビューアは、KuroNetくずし字認識サービスを利用するための入口となります。ビューアにIIIF (International Image Interoperability Framework)マニフェストをドラッグ&ドロップするか、以下のボックスにIIIFマニフェストURLを入力して下さい。
日本古典籍くずし字データセット
くずし字OCR(AIくずし字認識)の研究開発を支えているデータセットです。旧字と新字の統合などもこのデータセットの作成方針にしたがいます。またデータセットで出現頻度が低い文字は、認識が困難となる場合もありますので、精度を向上させるにはより大規模なデータセットを構築することが重要です。
参考文献
2022年10月、AIくずし字認識モデルの名前としての「KuroNet(クロネット)」は、新モデルRURI(瑠璃)に役目を譲って引退しました。ただ、サービス名としてのKuroNetは、歴史的経緯を考えてそのまま継続します。以下、AIモデルとしてのKuroNetに関する参考文献を紹介します。
まず、研究の背景も含めた全体像の中でのKuroNetの位置づけについては、以下をご覧下さい。
- 北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明, "文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――", 電子情報通信学会誌, Vol. 102, No. 6, pp. 563-568, doi:10.20676/00000349, 2019年6月
- 北本 朝展, "データ駆動型人文学研究の発展とAIによるくずし字認識", 月刊J-LIS, Vol. 6, No. 8, pp. 36-39, doi:10.20676/00000352, 2019年11月
- 北本 朝展, カラーヌワット タリン, "AIによるくずし字認識と歴史的資料全文検索への道", 専門図書館, No. 300, pp. 26-32, 2020年5月
- カラーヌワット タリン, 北本 朝展, "くずし字認識の進化とサービス化の展開", 人文科学とコンピュータシンポジウム じんもんこん2020論文集, pp. 3-10, 2020年12月 [ Paper ]
次に、KuroNetの技術的な面については、以下をご覧下さい。
- Alex LAMB, Tarin CLANUWAT,Asanobu KITAMOTO, "KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition", SN Computer Science, Vol. 1, No. 177, pp. 1-15, doi:10.1007/s42979-020-00186-z, 2020年5月 (in English)
- Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning", 15th International Conference on Document Analysis and Recognition (ICDAR2019), pp. 607-614, doi:10.1109/ICDAR.2019.00103, arXiv:1910.09433, 2019年9月
- Tarin CLANUWAT, Alex LAMB, Asanobu KITAMOTO, "End-to-End Pre-Modern Japanese Character (Kuzushiji) Spotting with Deep Learning", 人文科学とコンピュータシンポジウム じんもんこん2018論文集, pp. 15-20, 2018年12月 (in English) [ Paper ]
さらに、CODHによる関連するプロジェクトや、くずし字認識の関連プロジェクトについては、以下をご覧下さい。
- 北本 朝展, カラーヌワット タリン, ボーバー・イリザー ミケル, "Kaggle くずし字認識─世界規模の人文系コンペ開催への挑戦─", 人工知能学会誌, Vol. 35, No. 3, pp. 366-376, 2020年5月 [ Paper ]
- 北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR, "くずし字認識のためのKaggle機械学習コンペティションの経過と成果", 人文科学とコンピュータシンポジウム じんもんこん2019論文集, pp. 223-230, 2019年12月 [ Paper ]
- Tarin CLANUWAT, Mikel BOBER-IRIZAR, Asanobu KITAMOTO, Alex LAMB, Kazuaki YAMAMOTO, David HA, "Deep Learning for Classical Japanese Literature", NeurIPS 2018 Workshop on Machine Learning for Creativity and Design, arXiv:1812.01718, 2018年12月
- 北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データプラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん2016論文集, pp. 117-124, 2016年12月 [ Paper ]
- 北本 朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月
- 日本文化とAIシンポジウム2019〜AIがくずし字を読む時代がやってきた〜
- 第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜
メディアによる記事については、ニュースのページを随時更新していますが、以下の記事が特に参考になります。
- 「くずし字」AIが解読 ラーメン判別法も応用!, NHK WEB特集, 2019-12-02
- くずし字解読 AIの実力は?|サイカルジャーナル|NHKオンライン, NHK, 2019-11-20
- How Machine Learning Can Help Unlock the World of Ancient Japan, The Gradient, 2019-11-17